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摘要 : 系统 发 育 关 系 的 构建 对 被 子 植物 分 类 及 进化 研究 非常 重要 。 长 期 以 来 , 被子 植 物 系统 


发 育 的 研究 ， 大 多 使 用 质 体 基 因 、 线 粒 体 基因 或 少数 保守 的 单 拷贝 核 基因 。 本 研究 从 已 注释 
基因 组 或 转录 组 中 搜集 88 种 被 子 植物 (包含 58 目 ) 的 核 基因 集 ; 通过 对 其 进行 同 源 基 因 聚 


类 及 去 劳 系 同 源 基 因 ， 获 得 了 5 993 个 一 对 一 的 直系 同 源 基 因 家 族 〈 即 对 于 每 个 基因 家 族 ， 


每 种 植物 最 多 一 条 序列 , 最 少 包含 50 个 物种 ); 使 用 截取 各 种 不 同 数目 基因 集 的 DNA 或 氨基 


酸 序列 ， 采 用 串联 法 (concatenation) FAHY (coalescence), HET 20 棵 进化 树 。 比 


较 这 些 进 化 树 ， 虽 然 大 部 分 结果 支持 APG IV 中 描述 的 被 子 植物 主要 支 系 之 间 的 关系 〈( 真 
双子 叶 植 物 , 单子 叶 植 物 ), 木兰 类 植物 ), 但 真 双 子叶 植物 内 部 各 目 分 支 的 演化 关系 与 APG 
IV. 有 一 个 很 大 的 不 同 ， 即 本 研究 认为 檀 香 目 和 石竹 目 是 蘑 微 类 植物 的 姊妹 群 。 基 于 这 些 进 


化 树 


， 估 算 了 被 子 植物 各 目 分 支 的 分 化 时 间 ， 结 果 表 明 被 子 植物 的 起 源 时 间 为 237. 78 百 万 


年 前 〈95% 置 信 区 间 为 202. 6~278. 08)， 与 主流 观点 认为 的 225~240 百 万 年 前 一 致 。 本 研究 
为 构建 进化 树 提 供 了 一 种 可 行 性 策略 ， 这 种 方法 允许 使 用 基因 数目 更 多 而 计算 速度 更 快 。 
关键 词 : 系统 发 育 关系 ， 被 子 植物 ， 核 基因 ， 同 源 基因 聚 类 ， 串 联 法 ， 漳 祖 法 ， 分 化 时 间 
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Abstract: Construction of phylogeny is important to classification and research of angiosperms. 
For a long time, angiosperm phylogeny has been analysed using plastid genes, mitochondrial 
genes or a few conserved single-copy nuclear genes. Here, we collected nuclear gene sets of 88 
species of angiosperm (contains 58 orders) from annotated genomes or transcriptomes. By using a 
combined homology- and phylogeny tree-based approach, we obtained a total of 5 993 one-to-one 
ortholog groups (one sequence of each species for each ortholog group), each of which was 
represented by at least 50 species. Then, a total of 20 species trees were reconstructed using 
different combination of reconstruction methods (concatenation-based and coalescence-based) and 
sequence type (nucleotide or amino acid) for gene data sets with different gene occupancy values. 
Most of the resulting topologies support the relationships of the major clades of angiosperm as 
described in APG IV, but present different deep relationships among major clades in eudicots 
phylogeny such as the placement of Santalales and Caryophyllales as sisters to Rosids. We 
estimated the divergence times of the major clades of angiosperm and concluded that the origin of 
angiosperm is about 237.78 million years ago(95% confidence interval is 202.6~278.08), which is 
in accordance with the previously accepted 225-240 million years ago. This study provided an 
efficient strategy for building phylogenetic trees using thousands of genes with ultrafast 
calculation. 
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系统 发 育 树 的 正确 构建 对 植物 分 类 及 进化 研究 非常 重要 。 进 化 树 构建 的 准确 度 主要 受 以 
下 因素 的 影响 。 其 一 ， 所 使 用 的 数据 集 的 种 类 及 大 小 。 不 仅 使 用 形态 性 状 数据 、 质 体 基 因 、 
线粒体 基因 及 核 基 因 序 列 建立 的 进化 树 不 一 样 CEndress & Doyle, 2009; Ruhfel et al., 2014; 
Soltis et al., 2011; Zeng et al, 2014)， 使 用 全 长 核酸 序列 、 或 仅 使 用 基因 密码 子 某 个 位 点 的 核 
酸 序列 及 氨基 酸 序 列 所 构建 的 进化 树 也 有 所 不 同 CWickett et al., 2014)。 其 二 ， 构 建树 的 方 
法 及 模型 。 方 法 有 串联 法 (concatenation) 4E (coalescence): 串联 法 是 将 所 有 基因 串 
联 作为 一 个 整体 ， 使 用 软件 RAxML (Stamatakis, 2014) 或 iqtree (Nguyen et al., 2015) 构建 
系统 发 育 树 ; 漳 祖 法 是 先 对 每 个 基因 建树 ， 再 使 用 软件 ASTRAL (Zhang et al., 2017) 建 并 
所 有 基因 树 的 共有 树 (Wickett et al., 2014)。 而 构建 系统 发 育 树 使 用 的 模型 更 是 多 种 多 样 ， 
如 核酸 模型 GTR、HKY、JC、F81、K2P、K3P、K81uf 等 , 蛋白 质 模型 LG、Poisson、cpREV、 
mtREV, Dayhoff, mtMAM, JTT, WAG 等 (Nguyen et al., 2015). 
被 子 植物 是 植物 界 最 高 等 且 种 类 最 多 的 一 类 ， 它 们 在 地 球 上 占据 着 绝对 优势 。 现 在 已 报 
道 被 子 植物 有 352 000 种 (http://www. theplantlist. org/), EF 416 科 和 64 H, 各 目 之 
间 的 演化 关系 一 直 是 研究 的 热点 和 争论 的 焦点 。 被 子 植物 除了 最 基部 的 三 个 目 : 无 油 樟 目 
(Amborellales), HEXÉH (Amborellales) 和 木兰 蔷 目 (Austrobaileyales), Xf ANITA 组 ， 
HRAJ (99. 95%) 可 以 分 为 五 类 : 木兰 类 植物 (magnoliids)、 单 子叶 植物 (monocots) A 
双子 叶 植物 〈eudicots )、 金 栗 兰 科 〈Chloranthaceae) P&E} (Ceratophyllaceae). iX f 
类 的 系统 演化 拓扑 关系 一 直 存 在 争论 ，Zeng et al. (2014) 总 结 了 已 经 发 表 的 五 种 主要 的 拓扑 
关系 (图 1:A-E) , 其 中 A 是 最 主流 的 ， 也 是 APG IV (THE ANGIOSPERM PHYLOGENY 
GROUP, 2016) 的 拓扑 结构 。Soltie et al. (2011) 使 用 17 个 基因 串联 (包括 质 体 基因 、 线 粒 体 
基因 和 核 基 因 ) 为 640 种 植物 构建 的 系统 发 育 进 化 树 ， 和 Ruhfel et al. 2014) 使 用 78 个 质 体 
基因 串联 为 360 种 植物 构建 的 进化 树 ， 支 持 主流 A 拓扑 结构 。Wickett et al. 2014) 使 用 674 


个 核 基因 串 联 为 92 种 植物 构建 的 进化 树 ， 和 Zeng et al. (2014) 使 用 59 个 核 基因 串联 为 61 
种 植物 构建 的 进化 树 ， 支 持 B 拓扑 结构 。 除 此 之 外 ，Qiu et al. (2010) 使 用 4 个 线粒体 基因 为 
380 种 植物 构建 的 进化 树 ， 支持 C 拓扑 结构 ，Endress & Doyle (2009) 使 用 形态 性 状 构建 的 进 
bt, XF D 拓扑 结构 ;Zhang et al. 2012) 使 用 5 个 核 基 因为 91 种 植物 构建 的 进化 树 ， 文 
持 卫 拓扑 结构 。 
去 掉 金 栗 兰 科 和 金鱼 洛 科 后 ， 单 子叶 植物 、 木 兰 类 植物 、 真 双子 时 植物 之 间 的 系统 发 育 
关系 有 三 种 :(( 真 双子 叶 植 物 , 单子 叶 植 物 ), 木兰 类 植物 ); (( 真 双子 叶 植 物 , 木兰 类 植物 )， 
单子 叶 植 物 );(( 单 子叶 植物 ， 木 兰 类 植物 )， 真 双子 叶 植 物 )。Lu et al. 2018) 使 用 4 个 质 体 
基因 和 1 个 线粒体 基因 分 析 了 5 864 种 中 国 被 子 植物 (几乎 包括 所 有 中 国 地 区 被 子 植物 ) 的 
系统 发 育 关系 ,其 构建 的 进化 树 支 持 拓扑 结构 (( 真 双子 叶 植 物 ,单子 叶 植 物 ), 木兰 类 植物 )。 
Chen et al. (2019) 发 布 了 木兰 类 植物 笋 掌 杰 (Liriodendron) 基因 组 ， 使 用 其 502 个 核 基因 及 
WHALEN 18 种 植物 构建 的 进化 树 ， 同 样 支 持 拓扑 结构 (( 真 双子 叶 植 物 ， 单 子叶 植物 )， 木 
兰 类 植物 )。Chaw et al. (2019) 发 布 了 另 一 个 木兰 类 植物 牛 樟 〈stout camphor tree) 基因 组 ， 
使 用 其 211 个 核 基 因为 13 种 植物 构建 的 进化 树 , 文 持 拓扑 结构 (( 真 双子 叶 植 物 ， 木兰 类 植 
物 )， 单 子叶 植物 )。Li et al.(2019) 使 用 2881 种 被 子 植 物 的 质 体 基因 组 的 80 个 基因 重建 了 
被 子 植物 高 分 辨 紊 的 系统 发 育 树 ， 文 持 拓 扑 结 构 (( 真 双子 叶 植 物 ， 单子 叶 植 物 )， 木 兰 类 植 
物 )。 从 上 述 已 有 的 研究 中 ， 我 们 发 现 ， 使 用 核 基 因 串 联 法 建立 的 进化 树 基本 都 支持 拓扑 结 
构 《〈( 真 双子 叶 植物 ， 木 兰 类 植物 )， 单 子叶 植物 )， 使 用 核 基 因 淹 组 法 、 质 体 和 线粒体 基因 
建立 的 进化 树 基本 都 支持 拓扑 结构 〈( 真 双子 时 植 物 ， 单 子叶 植物 )， 木 兰 类 植物 )。 
e 真 双 子叶 植物 内 部 各 目的 系统 发 育 关 系 也 存在 争论 (图 1:F-K)， 真 双子 叶 植 物 除了 最 基 
v MBAS-E A (Ranunculales), IÆIRH (Proteales), E4 (Trochodendrales), 344 H 
= (Buxales) 和 洋 二 仙 草 目 《Gunnerales)， 其 余 的 可 以 分 为 两 类 : BARI (Rosids) 和 菊 
类 植物 (Asterids )。 这 两 类 植物 的 基部 有 6 个 目的 系统 发 育 关 系 比 较 混 乱 ， 即 五 枉 果 目 
(Dilleniales), JE HA (Saxifragales) WH (Vitales), f EH (Santalales), IE 
d H (Berberidopsidales) 及 石竹 目 (Caryophyllales). Zeng et al. 2017) 总 结 了 已 经 发 表 的 六 种 
i 主要 的 拓扑 关系 (图 1:F-K)， 其 中 是 APG IV 中 所 认可 的 拓扑 结构 。Moore et al. (2010) 
AS 使 用 83 个 质 体 基 因为 86 PIER TEA ET, SCE AR H E TE SS TEL BY A”: 
pi- Soltie et al. (2011) 等 使 用 17 个 基因 串联 (包括 质 体 基因 、 线 粒 体 基因 和 核 基因 ) 为 640 种 植 
‘= 物 构建 的 进化 树 , fI Moore et al. (2011) 使 用 质 体 食 序列 为 87 PRR EE, OCR TL 
© 醚 果 目 是 菊 类 植物 的 姊妹 群 ”;， Worberg et al. (2007) 等 使 用 五 个 基因 组 区 域 序列 为 56 种 植 
物 构建 的 进化 树 , 和 JMoore et al. (2011) 使 用 质 体 IR 序列 为 244 种 植物 构建 的 进化 树 , 及 APG 
IV 都 文 持 “五 枉 果 目 是 蔷薇 类 植物 和 菊 类 植物 共同 的 姊妹 群 ” 大 部 分 研究 都 支持 “葡萄 目 
和 虎 耳 草 目 是 蔷 答 类 植物 的 姊妹 群 ， 智 利 滕 目 、 檀 香 目 和 石竹 目 是 菊 类 植物 的 姊妹 群 ” 
(Moore et al., 2011, 2010; Worberg et al., 2007; Yang et al., 2015); Zeng et al. (2017) 使 用 504 
个 核 基 因 并 联 为 100 种 植物 构建 的 进化 树 , Sc REE eS EURUSURIBE H E SS EL IS b HE”. 
被 子 植物 的 起 源 及 进化 一 直 是 植物 学 界 研究 和 和 争论 的 热点 。 在 古生物 学 界 , 很 长 时 期 内 ， 
被 子 植物 的 最 早 化 石 记 录 都 是 白垩 纪 125 百 万 年 前 ， 也 是 最 早 的 真 双子 时 植物 化 石 记 录 
(Herendeen, 1995). Fu et al. (2018) 发 现 了 早 侏 罗 纪 地 层 ( 约 175 百 万 年 前 ) 中 的 “南京 花 ”， 
其 具有 花 莹 、 花 汶 、 雌 营 ， 有 明显 的 杯 托 、 下 位 子 房 上 位 花 、 树 状 的 花柱 ， 其 种 子 / 胚 珠 确 
实 是 被 完全 包裹 着 ， 子 房 壁 将 种 子 与 外 界 完全 隔绝 ， 这 都 满足 了 被 子 植 物 判 断 标准 。“ 南京 
花 ” 的 发 现 ， 将 被 子 植物 最 早 化 石 记 录 疝 前 推进 了 约 5 000 万 年 ， 并 填补 了 被 子 植物 化 石 记 
录 (125 百 万 年 前 ) 与 分 子 钟 推算 时 间 (225-240 百 万 年 前 ) 之 间 的 “ 侏 罗 纪 空缺 ”(Jurassic 
gap) (Li etal., 2019) 。 目 前 ， 大 多 数 基 于 系统 进化 树 的 被 子 植物 分 化 时 间 估 计 研 究 ， 都 认为 
被 子 植物 的 起 源 为 三 钱 纪 225-240 百 万 年 前 (Magallon, 2010; Mandel, 2019; Smith et al., 2010; 
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Zeng et al., 2014), 这 与 起 传粉 作用 的 核心 植 食性 鳞 翅 目 昆 虫 的 起 源 时 间 ( 约 230 百 万 年 前 ) 
一 致 〈Li et al., 2019; Zeng et al., 2014). 

本 研究 使 用 超过 5 000 个 核 基因 的 核酸 及 蛋白 序列 ， 用 两 种 进化 树 构建 方法 分 析 了 88 
种 被 子 植 物 的 系统 发 育 关 系 ( 包 括 87 科 58 HO, 并 对 各 进化 分 支 的 分 化 时 间 进 行 了 估计 (总 
流程 如 图 2)。 为 了 得 到 准确 可 靠 的 被 子 植 物 系 统 发 育 进 化 树 ， 我 们 对 5 000 多 个 核 基因 进 


行 了 拆 分 , 得 到 了 包含 不 同 基 


因数 量 的 多 个 数据 集 , 并 对 各 个 数据 集 进行 系统 发 育 树 的 构建 ， 


最 后 比较 了 所 得 到 的 20 棵 系统 发 育 进化 树 之 间 的 一 致 性 。 
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H: A-E. 五 类 被 子 植物 间 〈 金 栗 兰 科 (ChD)、 金 鱼 藻 科 (CeD、 木 兰 类 植物 (Mag)、 单 子叶 植物 (Mon) 及 真 双 


子叶 植物 (Eud)) 5 种 代表 性 拓扑 结构 ，F-K. 真 双子 叶 植物 内 部 各 目 间 6 种 代表 性 拓扑 结构 。 


202001.00109v1 


chinaXiv 


ChinaXiv& (EB 


Note: A-E. Five representative topologies among eudicots (Eud), monocots (Mon), magnoliids (Mag), 


Ceratophyllaceae (Cer) and Chloranthaceae (Chl); F-K. Six representative topologies among eudicots. 
图 1 不 同 拓扑 结构 的 被 子 植 物 演化 关系 
Fig.1 Various topologies of angiosperm phylogeny 
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图 2 被 子 植物 系统 演化 关系 重建 总 流 和 
Fig.2 The overall workflow of angiosperm phylogeny reconstruction 
1 材料 和 方法 
1.1 材料 
我 们 收集 了 1 个 裸子 植物 (Ginkgo biloba 作为 外 类 群 ) 基 因 组 、43 个 被 子 植物 基因 组 ( 主 
要 来 自 NCBI 和 PHYTOZOME 数据 库 )、43 个 被 子 植物 已 拼接 转录 组 
Chttp://www.onekp.com/public_data.html ) 及 2 个 被 子 植物 RNA-seq 数据 (其 中 无 叶 莲 
Petrosavia sakurai 是 本 研究 测序 的 物种 )， 其 中 被 子 植物 共 包 含 87 科 58 H K 1). 


de 1 本 研究 所 用 的 89 个 植物 物种 及 数据 来 源 
Table 1 The list of the 89 plants used in this study and the data source 


: orthologs containing one sequence : 
per species with MO approach 


https://bitbucket.org/yangya/phyloge 
nomic_dataset_construction 


HO 


物种 缩写 

Data origin 来 源 
Species Abbreviation Order 

type Data origin 


http://gigadb.org/dataset/ 


银杏 Ginkgo biloba Genome GGIBI 裸子 植物 门 Gymnosperm 

100613 
猕猴 桃 Actinidia chinensis Genome GACCH 杜鹃 花 目 Ericales nebi 
无 油 樟 Amborella trichopoda Genome GAMTR 无 油 樟 目 Amborellales phytozome 
菠萝 Ananas comosus Genome GANCO AKA H Poales ncbi 
深圳 拟 兰 Apostasia shenzhenica Genome GAPSH 天 门 冬 目 Asparagales nebi 
拟 南 芥 Arabidopsis thaliana Genome GARTH 十 字 花 目 Brassicales tair 
芦笋 Asparagus officinalis Genome GASOF 天 门 冬 目 Asparagales phytozome 
甜菜 Beta vulgaris Genome GBEVU 石竹 目 Caryophyllales ncbi 


F! 
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胡桃 Juglans regia 


喜 树 Camptotheca acuminata 


TÉ ACM Carica papaya 


KEE Catharanthus roseus 


土 瓶 草 Cephalotus follicularis 
BERE Citrus sinensis 
中 粒 咖啡 Coffea canephora 


胡萝卜 Daucus carota 


龙眼 Dimocarpus longan 


AESH Dioscorea rotundata 


昔 荞麦 Fagopyrum tataricum 


INRE Musa acuminata 


画眉 草 Eragrostis tef 


EXf£ Eucalyptus grandis 


欧洲 白蜡 树 Fraxinus excelsior 


大 豆 Glycine max 
fa] HŽ Helianthus annuus 


牵 牛 花 Ipomoea nil 


伽蓝 Kalanchoe fedtschenkoi 


博 落 回 Macleaya cordata 


18 JK Momordica charantia 


H EE Nelumbo nucifera 
it Phoenix dactylifera 


毛 果 杨 Populus trichocarpa 


委 陵 菜 Potentilla micrantha 


黄花 九 轮 草 Primula veris 


石榴 Punica granatum 


ERER Quercus lobata 
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GQULO 


壳 斗 目 Fagales 


UIZ H Cornales 


Trte H Brassicales 


龙 胆 目 Gentianales 


醉 浆 草 目 Oxalidales 


无 患 子 目 Sapindales 


龙 胆 目 Gentianales 


ÉH Apiales 


JRT H Sapindales 


pi H Dioscoreales 


石竹 目 Caryophyllales 


姜 目 Zingiberales 


KAH Poales 


H&A H Myrtales 


RJE H Lamiales 


X; H Fabales 
43 Asterales 


Ji H Solanales 


虎 耳 草 目 Saxifragales 


ÆR A Ranunculales 
Wi H Cucurbitales 
山 龙 眼目 Proteales 
棕榈 目 Arecales 


金 虎尾 日 Malpighiales 


WH Rosales 


杜 鹏 花 目 Ericales 


桃 金 娘 目 Myrtales 


壳 斗 目 Fagales 
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橡胶 树 Hevea brasiliensis 
丹参 Salvia miltiorrhiza 


FS Solanum tuberosum 
紫 萍 Spirodela polyrrhiza 


可 可 Theobroma cacao 


葡萄 Vitis vinifera 
XX Ziziphus jujuba 


XU Zostera marina 


SETTE Acorus americanus 
FEM Helwingia japonica 


A= Austrobaileya scandens 


红 花 八角 Mlicium floridanum 


fit ERE Aextoxicon punctatum 


ZU: Berberidopsis beckleri 


pan 


HENES Mertensia paniculata 
加 洲 蓝 钟 Phacelia campanularia 
锦 熟 黄杨 Buxus sempervirens 


白 桂 皮 Canella winterana 


林 仙 Drimys winteri 


玉女 机 Crossopetalum rhacoma 
金鱼 藻 Ceratophyllum demersum 
AZt Ascarina rubricaulis 


水 苏 Stachyurus praecox 


美国 省 沽 油 Staphylea trifolia 


EER Dillenia indica 


F] ASSL Viburnum odoratissimum 


金银花 Lonicera japonica 


红叶 凤 眼 莲 Escallonia rubra 
杜仲 Eucommia ulmoides 

花茎 草 Francoa appendiculata 
PEG E ERES Geranium maculatum 


大 叶 草 Gunnera manicata 


术 
dž 


HI Tapiscia sinensis 


Ha SERIES Pyrenacantha malvifolia 


#2528 Oncotheca balansae 


JE EEE Calycanthus floridus 


KIRPI Sassafras albidum 
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Genome 
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Transcriptome 


Transcriptome 


Transcriptome 


Transcriptome 
Transcriptome 
Transcriptome 


Transcriptome 


GHEBR 


GSAMI 


GSOTU 
GSPPO 
GTHCO 
GVIVI 
GZUU 
GZOMA 
MTII 
QACK 
FZJL 
VZCI 
QUTB 
HAEU 
DKFZ 
YQU 
IWMW 
DDEV 
WKSU 
IHCQ 
NPND 
WZFE 
VYGG 
PTLU 
EHNF 
HLIG 
GSZA 
CLMX 
SZUO 
HDWF 
YGCX 
XMQO 
WWKL 
QZZU 
PVGM 
FALI 


ABSS 


AFLV 


MWYQ 
YZRI 
OBPL 
PUDI 


Bü 


H&H Malpighiales 


局 
ES 


H Lamiales 


NS 


Ji H Solanales 
#5 A Alismatales 
#2% H Malvales 


葡萄 目 Vitales 


FAA Rosales 


#5 H Alismatales 


2y H Acorales 


E 
ABA Aquifoliales 


7K = H Austrobaileyales 


# H Austrobaileyales 


TURIS H Berberidopsidales 


#4 i H Berberidopsidales 


紫 草 目 Boraginales 
紫 草 目 Boraginales 
黄杨 目 Buxales 

S4 H Canellales 


桂皮 目 Canellales 


EF H Celastrales 


会 鱼 藻 目 Ceratophyllales 
4524 H Chloranthales 
AIk H Crossosomatales 
Rik H Crossosomatales 


EMER H Dilleniales 


| 续 断 目 Dipsacales 


| 续 断 目 Dipsacales 


4] BAH] FH Escalloniales 


AK H Garryales 


E“F JLA H Geraniales 


E“F JL H Geraniales 


洋 二 仙 草 目 Gunnerales 


TAI H Huerteales 


ZR ACR H Icacinales 


IRN H Icacinales 


樟 目 Laurales 


樟 目 Laurales 


合 目 Liliales 


合 目 Liliales 


木兰 目 Magnoliales 
木兰 目 Magnoliales 
tm H Malvales 
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phytozome 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 
onekp 


onekp 


onekp 


onekp 
onekp 
onekp 


onekp 


Chinaxiv& fem] 

Ej ERI REESE SE Nuphar advena Transcriptome — WTKZ 睡莲 目 Nymphaeales onekp 

露 兜 树 Xerophyta villosa Transcriptome QOXT fe S24} A Pandanales onekp 

马蹄 香 Saruma henryi Transcriptome QDVW 胡椒 目 Piperales onekp 

墨西哥 胡椒 Piper auritum Transcriptome | MUNP 胡椒 目 Piperales onekp 

银 桦 Grevillea robusta Transcriptome GRRW 山 龙 眼目 Proteales onekp 

框 东 坚果 Santalum acuminatum Transcriptome RSPO 1 H Santalales onekp 

昆 栏 树 Trochodendron aralioides Transcriptome | SWOH 昆 栏 树 目 Trochodendrales onekp 

SERERE Krameria lanceolata Transcriptome ZHMB $32 A Zygophyllales onekp 

PEH Tribulus eichlerianus Transcriptome KVAY 3:39 Fl Zygophyllales onekp 

https://www.ncbi.nlm.ni 
露水 草 Cyanotis arachnoidea TCYTR HS 2h 5€ E Commelinales 
RNA-SEQ h.gov/sra/SRP144398 

无 叶 莲 Petrosavia sakurai RNA-SEQ TPETR TEM YE} Petrosaviaceae This study 


1.2 基于 基因 组 序列 的 直系 同 源 基因 鉴定 
我 们 使 用 Yang & Smith (2014) 报道 的 方法 ， 对 43 个 植物 基因 组 的 基因 集 进行 同 源 基 因 
聚 类 分 析 。 先 使 用 软件 BLASTN v2.6.0+ 对 43 个 基因 集 CDS 序列 进行 all-by-all blast， 每 条 
序列 取 最 佳 的 1 000 条 比 对 结果 ， 去 掉 比 对 长 度 小 于 1/3 总 长 的 序列 ， 修 剪 未 比 对 上 的 末端 
序列 。 再 使 用 MCL 软件 《Van, 2000) 进行 同 源 基 因 聚 类 Cinflation value = 1.4)， 去 除 少 于 
20 个 植物 的 基因 家 族 ， 剩 余 基 因 家 族 使 用 MAFEFT v7.310 软件 (Katoh & Standley, 2013) 进 
行 多 序列 比 对 (maximum iterative refinement cycles = 1 000), 使 用 PHYUTILITY v2.2.6 软件 
(Smith & Dunn, 2008) 修剪 缺失 率 大 于 90% 的 位 点 ， 使 用 软件 RAXML v8.2.11 CStamatakis, 
2014) 对 修剪 后 的 多 序列 比 对 数据 估算 系统 进化 树 (model = GTRCAT)。 最 后 修剪 掉 进化 树 
上 的 所 有 旁 系 同 源 基因 枝 , 修剪 枝 长 大 于 0. 6 的 枝 、 比 姐妹 枝 长 十 倍 的 末端 枝 ， 单 源 且 全 部 
同样 品 的 枝 只 保留 一 个 ， 修 剪 枝 长 比 预期 碱 基 蔡 换 率 大 0. 3 倍 的 内 部 枝 ， 再 使 用 MO 方法 
(Yang & Smith, 2014) 去 除 所 有 剩余 的 旁 系 同 源 枝 ， 获 得 one-to-one 同 源 基 因 家 族 〈 即 每 
个 样品 最 多 一 条 序列 )， 只 保留 大 于 20 个 样品 的 基因 家 族 。 
1.3 转录 组 及 外 类 群 数据 处 理 
我 们 对 两 个 来 自 两 个 科 〈 无 叶 芝 科 Petrosavia sakurai 和 鸦 踊 草 科 Cyanotis arachnoidea) 
的 RNA-seq 数据 从 头 拼接 。 首 先 使 用 Trimmomatic v0.38 软件 (Bolger et al., 2014) 过 滤 原 始 
reads 数据 (参数 : HEADCROP:15 LEADING:20 TRAILING:20 SLIDINGWINDOW:5:20 
MINLEN:50 AVGQUAL:20), 再 使 用 Trinity v2.6.6 软件 (Grabherr et al., 2011) 拼接 Cmin contig 
length=150bp ) ; 最 后 使 用 TransDecoder v5.5.0 
Chttps://github.com/TransDecoder/TransDecoder/releases/tag/TransDecoder-v5.5.0 ) 进行 CDS 
和 有 蛋白质 序列 预测 〈 参 考 数据 库 为 Swissprot 和 Pfam-A)。 将 得 到 的 这 两 个 物种 的 基因 集 、 
从 onekp 数据 库 下 载 得 到 的 43 种 被 子 植物 的 基因 集 和 1 个 裸子 植物 (Ginkgo biloba) 的 基 
因 集 , 使 用 HaMStR v13.2.6 软件 CEbersberger et al., 2009) 合并 到 利用 基因 组 数据 得 到 的 同 
源 基因 家 族 中 ， 最 终 只 保留 大 于 50 个 样品 的 基因 家 族 。 
14 系统 发 育 进化 树 构建 
我 们 采用 两 种 方法 串联 法 〈concatenation ) 和 漳 祖 法 (coalescence )， 并 分 别 使 用 CDS 
序列 和 氨基 酸 序列 构建 进化 树 。 无 论 是 CDS 序列 还 是 蛋白 质 序列 , 都 使 用 PRANK v.170427 
软件 Chttp://wasabiapp. org/software/prank/ ) 进行 多 序列 比 对 ， 使 用 PHYUTILITY 
v2.2.6 软件 (Smith & Dunn, n 修剪 缺失 率 大 于 70% 的 位 点 ， 其 中 CDS 序列 需 去 除 长 度 
小 于 300 个 碱 基 的 序列 ， 和 蛋白 质 序列 需 去 除 长 度 小 于 100 个 氨基 酸 的 序列 。 
漳 祖 法 ， 先 对 每 个 基因 使 用 RAxML v8.2.11 软件 (默认 参数 ) CStamatakis, 2014) 画 树 ， 


再 使 用 ASTRAL v5.5.9 软件 (Zhang et al., 2017) 处 


2015) 获得 。 
BRE, Seti 


Tn 


E 


所 有 基因 树 ， 得 到 共有 树 ， 参 数 设置 “-t 
1 --gene-only” 以 获得 bootstrap 值 和 基因 支持 率 , 枝 长 使 用 iqtree v1.5.5 软件 (Nguyen et al., 


] PartitionFinder v2.1.1 软件 (Lanfear et al., 2009) 对 串联 序列 进行 分 区 和 


进化 模型 检测 ， 从 而 设置 较 合 理 的 分 区 和 为 每 个 分 区 选择 合理 的 进化 模型 。 对 CDS 序列 检 
测 下 列 的 四 个 分 区 策略 〈 表 2) :no partitioning, partitioning by each codon position (three 
partitions), partitioning by gene 和 partitioning by each codon position within each gene。 对 和 蛋白 


质 序列 检测 下 列 两 个 分 区 策略 : no partitioning 和 partitioning by gene. 参数 设置 如 下 : branch 
lengths = linked; model_selection = aicc; search = user; models = GTR, GTR+G, GTR+I+G(CDS 
序列 ) 或 者 models = LG+G, LG+I+G, WAG+G, WAG+I+G (蛋白质 序列 )。 再 使 用 iqtree v1.5.5 
软件 画 树 (1000 ultrafast bootstrap replicates (Von Haeseler et al., 2013), -spp 设置 最 优 分 区 


策略 )， 基因 支持 率 使 
al., 2016) 对 获得 的 所 有 


化 树 进行 美化 。 


| ASTRAL v5.5.9 软件 C-t 1) 获得 。 


" 


最 后 使 ) 


表 2 串联 法 建树 分 区 模型 检测 


Table2 AICc scores for each of the phylogenetic matrix partitioning strategies 


软件 Evolview v2 (He et 


数据 大 小 分 区 策略 分 区 数 
数据 对 数 似 然 值 赤 池 信息 值 
Number of Partitioning Number of 
Matrix Log-likelihood AICc 
data strategy partitions 
nt(=50sample) 26 563 047 OnePart 1 -343 591 104.000 000 687 182 578.003 000 
CodonPart 3 -343 585 496.000 000 687 171 406.003 000 
GenePart 5 929 -342 778 283.430 175 685 687 673.619 000 
CodonGenePart 3x5 929 -341 770 443.474 243 683 935 206.166 000 
nt(=70sample) 16 540 374 OnePart 1 -222 849 712.000 000 445 699 794.004 000 
CodonPart 3 -222 846 000.000 000 445 692 414.005 000 
GenePart 3 384 -222 406 333.714 843 444 887 632.932 000 
CodonGenePart 3x3 384 -221 758 883.619 628 443 742 935.528 000 
nt( = 80sample) 9 340 788 OnePart 1 -129 962 472.000 000 259 925 314.007 000 
CodonPart 3 -129 960 500.000 000 259 921 414.009 000 
GenePart 1791 -129 739 122.166 992 . 259 518 079.097 000 
CodonGenePart 3x1 791 -129 354 388.143 432 258 828 073.274 000 
nt( = 85sample) 4 069 848 OnePart 1 -57 607 360.000 000 115 215 090.017 000 
CodonPart 3 -57 606 964.000 000 115 214 342.021 000 
GenePart 742 -57 512 358.070 313 115 041 422.363 000 
CodonGenePart 3x742 -57 329 703.801 392 114 709 026.252 000 
nt( = 89sample) 231 309 OnePart -3 311 701.250 000 6 623 772.797 760 
CodonPart 3 -3 311 505.937 500 6 623 426.247 620 
GenePart 42 -3 304 863.765 625 6 611 003.043 870 
CodonGenePart 3x42 -3 290 917.219 238 6 584 975.637 010 
AA(z50sample) 3 332 638 OnePart -135 739 947.205 826 4 271 508 915.612 567 
GenePart 5 929 -135 248 986.841 308 270526 876.482 000 
AA(270sample) 2029014 OnePart -83 878 051.077 318 167 759 844.588 965 
GenePart 3 384 -83 574 671.167 480 167 169 596.938 000 
AA(z80sample) 1 165 765 OnePart -47 214 500.000 000 94 429 354.054 100 
GenePart 1791 -47 043 728.832 520 94 097 113.497 200 


AA(z85sample) 519 158 OnePart 1 -19 925 224.000 000 39 850 802.121 400 


GenePart 742 -19 851 832.912 842 39 707 977.665 800 
AA(z89sample) 30 148 OnePart 1 -979 643.625 000 1 959 681.828 340 
GenePart 42 -973 566.588 867 1 948 059.215 120 


YE: 黑体 为 最 优 模型 ( 即 赤 池 信 息 值 值 最 低 》 
Note: Bold is the best partition (AICc value is the lowest). 
1.5 分 化 时 间 估 计 

我 们 使 用 PAML v4.9 软件 包 (Yang, 2007) 的 MCMCTREE 程序 进行 分 化 时 间 估 计 ， 输 
入 拓扑 结构 为 综合 20 棵 进化 树 的 最 佳 拓扑 结构 “即使 用 742 个 基因 的 CDS 序列 串联 法 获得 
的 拓扑 结构 ), 输 入 序列 为 742 个 基因 的 CDS 序 列 ,我 们 先 对 每 个 基因 都 分 别 估 计 分 化 时 间 ， 
再 综合 742 个 基因 的 分 析 结 果 〈 即 每 个 节点 取 所 有 基因 的 平均 值 ) 获得 最 终 的 分 化 时 间 树 。 
拓扑 结构 的 校长 使 用 JONES+gamma 碱 基 蔡 换 模 型 获得 ; rgene gamma 设 定 为 G(1, 4.5); 
sigma2 gamma 设 定 为 G(1, 4.5); clock 设 定 为 3; Markov chain Monte Carlo(MCMC) 设 定 为 
burnin = 50 000, sampfreq = 100, nsample = 10 000。 对 每 个 基因 ， 都 是 分 别 运 行 两 次 独立 的 
MCMC ( 即 不 同 的 random seeds ) , 使 用 Tracer vl.7 软件 
(https://github.com/beast-dev/tracer/releases/tag/v1.7.1 ) 观 察 运行 结果 是 否 稳定 和 收敛 ， 所 有 节 
点 及 参数 的 effective sample size 是否 大 于 200。 九 个 化 石 校准 设 定 为 : 银杏 分 化 时 间 为 
290-310 百 万 年 前 (Gao etal., 1989)， 单 子叶 植物 和 真 双子 叶 植物 分 化 时 间 为 130~200 百 万 
年 前 (Kumar et al., 2017)， 真 双子 叶 植 物 共 同 祖 先 《〈 即 最 早 的 双子 叶 植 物化 石 记 录 ) 为 125 
4 百 万 年 前 〈Herendeen, 1995; Zeng et al, 2014)， 山 龙眼 目 (Proteales) 的 共同 祖先 为 108. 8 
T 百 万 年 前 〈Crane et al, 1996)， 葡 萄 目 (Vitales) 与 其 余 著 被 类 植物 间 分 化 时 间 为 105-115 
百 万 年 前 〈Fawcett et al., 2009; Kumar et al., 2017), A. thaliana 5j P. trichocarpa 间 分 化 时 间 
为 97~109 百 万 年 前 (Kumar et al., 2017), &iH (Fabales) 5562L H (Fagales) 间 分 化 时 间 
为 93.5 A ASFA (Friis et aL, 1996) , URRH (Cornales) 共同 祖先 为 85.8 百 万 年 前 
(Takahashi et al., 2002) , JEJE H (Lamiales) 共同 祖先 为 44. 3 百 万 年 前 (Call et al., 1992). 


2 结果 与 分 析 

2.1 直系 同 源 基 因 鉴 定 

= 我 们 对 44 个 植物 基因 组 基因 集 和 45 个 已 拼接 转录 组 CDS 序列 进行 同 源 基因 聚 类 ， 并 
ri 使 用 Yang & Smith Q014) 报道 的 方法 ， 去 除 所 有 旁 系 同 源 基因 ， 最 终 获得 大 于 50 个 样品 的 
one-to-one 基因 家 族 〈 即 每 个 样品 最 多 一 条 序列 ) 共 5 993 个 (图 3:A) ,各 种 植物 的 基因 
覆盖 率 从 33. 57% 到 97. 85%， 平 均 为 80. 40% (图 3:B). 
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Number of orthologous genes 


基因 数目 Number of samples each orthologous gene 


m "m T BAM 


EAA Genome434)  # 转录 组 Transcriptome (454) 3B Transcriptome (454) — Outgroup(14*) 
ik: A. 每 个 同 源 基 因 家 族 含有 的 基因 数目 ，B. 每 个 样品 含有 的 同 源 基因 家 族 数目 。 


Note: A. Number of samples for each orthologous gene family; B. Number of orthologous genes for each 


Sample. 
图 3 5 993 个 聚 类 的 同 源 基因 家 族 
Fig.3 Results of 5 993 inferred orthologous gene groups 

2.2 系统 发 育 进化 树 构建 

我 们 采用 串联 和 漳 祖 法 共 构 建 了 20 棵 进化 树 ， 并 比较 它们 之 间 的 不 同 〈 图 4)， 以 评估 
树 的 稳定 性 。 CDS 序列 和 蛋白质 序列 , 都 分 别 使 用 五 个 数据 集 , 总 共 构 建 20 Hi (5 棵 CDS 
串联 法 树 ，5 棵 CDS 漳 祖 法 树 ，5 PR AA 串联 法 树 和 5 棵 AA 漳 祖 法 树 )。 这 5 个 数据 集 分 
别 包含 5 928 个 orthologs (250 samples)、3 384 个 orthologs (270 samples), 1 791 个 
orthologs ( 280 samples)、742 个 orthologs ( 285 samples) 及 42 个 orthologs (=89 samples ) 。 

ix 20 棵 进化 树 主要 是 为 了 进一步 确定 图 1 中 五 类 被 子 植物 间 演 化 关系 和 真 双 子叶 植物 
内 部 各 目 间 系 统 发 育 关系 。 这 些 进化 树 中 的 大 多 数 , 是 与 使 用 742 个 基因 CDS 序列 ( 共 4 069 
848 位 点 ) 串联 方法 建立 的 进化 树 高 度 一 致 的 (图 5)《〈 使 用 3 384 个 基因 AA 序列 建立 的 进 
化 树 ， 和 使 用 1 791 个 基因 AA 序列 建立 的 进化 树 ， 也 是 相同 的 最 佳 拓扑 结构 )。 
2.2.1 木兰 类 植物 、 单 子叶 植物 及 双子 叶 植物 间 演 化 关系 

无 论 核酸 序列 还 是 蛋白 质 序 列 ， 使 用 串联 法 和 漳 祖 法 建立 的 进化 树 基 本 都 支持 拓扑 结构 
(( 真 双子 叶 植 物 ， 单 子叶 植物 )， 木 兰 类 植物 ) (图 4)。 
2.2.2 BARBS dE EF) 

我 们 的 研究 表示 , Se RB EOE KR s 这 与 前 人 的 研究 结果 一 致 (图 4)。 
但 金 栗 兰 科 是 所 有 被 子 植物 〈 除 ANITA 外 ) 的 基底 劳 系 群 ， 这 与 APG IV UKH ERZ 
科 是 木兰 类 植物 的 姊妹 群 ” 是 不 同 的 。 
2.2.3 双子 叶 植 物 内 部 各 目的 系统 发 育 关系 

我 们 的 研究 认为 ， 五 醚 果 科 是 蓄 攻 类 植物 和 菊 类 植物 共同 的 姊妹 群 ， 虎 耳 草 目 是 蔷 若 类 
植物 的 姊妹 群 ， 这 都 与 APG IV 一 臻 《图 4)。 

APG IV 认为 “ 檀 香 目 和 石竹 目 是 菊 类 植物 的 姊妹 群 ”， 而 我 们 的 研究 否定 了 这 一 结论 
20 棵 进化 树 中 ， 所 有 结果 都 支持 “石竹 目 是 蓄 短 类 植物 的 姊妹 群 ” 大 部 分 支持 “ 檀 香 目 是 
蔷薇 类 植物 的 姊妹 群 ” 这 与 Zeng et al.(2017) 等 的 研究 结果 一 致 ， "PDA Scr CEU HAE 
微 类 植物 和 菊 类 植物 共同 的 姊妹 群 ”( 图 4)。 


作 期 刊 
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APG IV WA FAURE H ze 589 2 TET E e ERE" 而 我 们 的 研究 只 有 少 部 分 支持 这 一 结论 。 
使 用 和 蛋白质 序列 建立 的 进化 树 , 无 论 串 联 还 是 溯 祖 法 ， 都 支持 “智利 藤 目 是 蔷薇 类 植物 和 菊 
类 植物 共同 的 姊妹 群 ”。 使 用 核酸 序列 建立 的 进化 树 ， 随 着 基因 数目 的 增多 ,逐渐 转变 为 文 
持 “ 智 利 藤 目 是 菊 类 植物 的 姊妹 群 ”， 与 APG IV 一 致 ( 图 4)。 


B Method Supermatrix-IQTREE. 


次 (unon mo [M 


Topology 


请 (evamonimog 
{(eud,mag).mon) 


{(mag.mon).cud) 


Dillon as sister of asterids 


We oer as outside of rosids and asterias 


222 3 3: 


iE: A. Bootstrap (f; B. 基因 支持 率 。( 红 色 表示 支持 ， 蓝 色 表示 拒绝 ， 红 色 星 星 表示 支持 率 最 高 的 拓扑 结 
构 ) 


Note: A. Bootstrap values; B. Gene trees support values. (Red represents support, blue represents rejection, the 


topology labeled with a red star is the most supported.) 
4 采用 各 种 数据 集 并 使 用 串联 和 并 联 方 法 建立 的 20 棵 进化 树 ， 对 各 种 有 争议 拓扑 结构 的 
支持 率 统计 


Fig.4 Statistics of support values for relationships among the clades which are controversial in 


previous studies by using different methods and gene numbers 
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注 : 枝 上 和 斜 线 左 边 数 字 为 bootstrap 值 ， 右 边 数字 为 基因 支持 率 。 
Note: The left number at the notes is bootstrap value. The number on the right is gene trees support ratio. 


5 使 用 742 个 基因 CDS 序列 串联 方法 构建 的 系统 发 育 进化 树 


Fig.3 Concatenation-based angiosperm phylogenetic tree based on CDS sequences of 742 


orthologs 
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基于 742 个 基因 CDS 序列 串联 方法 建立 的 进化 树 ， 我 们 估计 了 被 子 植物 的 分 化 时 间 ( 图 
6)。 我 们 认为 被 子 植 物 的 起 源 时 间 为 237.78 百 万 年 前 “95% 置 信 区 间 为 202.6~278.08)， 与 
主流 观点 认为 的 225~240 百 万 年 前 一 致 (Magallon, 2010; Smith et al., 2010; Zeng et al., 2014). 
木兰 类 植物 与 单子 叶 植 物 和 真 双子 叶 植 物 的 分 化 时 间 约 为 166.11 百 万 年 前 ; AIRE- 


微 类 和 菊 类 植物 的 分 化 时 间 约 为 124.23 百 万 年 前 ; 


116.98 HAA 


百 万 年 前 。 
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著 袜 类 植物 与 菊 类 植物 的 分 化 时 间 约 为 


ERI; 情形 类 植物 (Lmiids) 与 桔梗 类 植物 (Campanulids ) 的 分 化 时 间 约 为 102.37 
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TE: 灰色 条 纹 为 分 化 时 间 的 95 多 置信 区 间 , 九 个 化 石 校准 时 间 为 : 〈1) 银杏 分 化 时 间 为 290-310 百 万 年 前 ; 
(2) 单子 叶 植物 和 真 双 子叶 植物 分 化 时 间 为 130~200 百 万 年 前 ;(3) 真 双 子叶 植物 共同 祖先 〈 即 最 早 的 双 
子叶 植物 化 石 记 录 ) A125 百 万 年 前 ; CA) UIRE (Proteales) 的 共同 祖先 为 108.8 百 万 年 前 ; (5) ili 
GEA (Cornales) 共同 祖先 为 85.8 百 万 年 前 ; (60 JEJÉH (Lamiales) 共同 祖先 为 44.3 百 万 年 前 ; (7) 

葡萄 目 (Vitales ) 与 其 余 蔷 稚 类 植物 间 分 化 时 间 为 105-115 百 万 年 前 ; (8) 豆 目 (Fabales ) 53824 H (Fagales) 

间 分 化 时 间 为 93.5 百 万 年 前 ; (9) Arabidopsis thaliana 与 Populus trichocarpa 间 分 化 时 间 为 97~109 百 万 年 
BU; (0)“ 南 京 花 ” 的 可 能 系统 演化 位 置 (175 百 万 年 前 )。 


Note: Grey bars are 95% confidence intervals, nine fossil calibration points are as follows: (1)The divergence time 


of Ginkgo biloba is 290-310 million years ago. (2) The divergence time of eudicots and monocots is 130-200 
million years ago. (3) The divergence time of eudicots is 125 million years ago. (4) The divergence time of 
Proteales is 108.8 million years ago. (5) The divergence time of Cornales is 85.8 million years ago. (6) The 

divergence time of Lamiales is 44.3 million years ago. (7) The divergence time of Vitales from Rosids is 105-115 
million years ago. (8) The divergence time of Fabales and Fagales is 93.5 million years ago. (9) The divergence 
time of Arabidopsis thaliana and Populus trichocarpa is 97-109 million years ago. 

图 6 基于 742 个 基因 CDS 序列 对 被 子 植物 分 化 时 间 的 佑 计 结 
Fig.6 Chronogram presenting estimated divergence times by MCMCTREE using CDS sequences 


of 742 genes 


3 讨论 与 结 


长 期 以 来 ， 被 子 植 物 的 系统 发 育 关 系 重 建 ， 都 是 使 用 质 体 基因 、 线 粒 体 基 因 或 少数 保守 
的 单 拷贝 核 基因 。Yang & Smith(2014) 报 道 了 一 种 基于 系统 进化 树 的 同 源 基因 聚 类 及 去 旁 系 
同 源 基因 的 方法 ， 我 们 使 用 此 种 方法 对 收集 的 88 种 植物 核 基因 集 进 行 聚 类 ， 共 获得 了 多 达 
5 993 个 one-to-one 基因 家 族 ， 并 从 这 个 数据 集 里 面 截取 各 种 大 小 的 数据 进行 进化 树 重 建 ， 
以 测定 进化 树 的 稳定 性 。 

获得 比 以 前 更 多 的 核 基 因 家 族 后 , 制约 系统 演化 关系 构建 的 另 一 个 因素 就 是 大 量 的 计算 
资源 和 计算 时 间 。 构 建 系统 进化 树 时 ， 一 般 需 要 设置 bootstrap 值 (100~1 0000 R, Hb 
又 非常 耗费 计算 时 间 。Nguyen et al.(2015) 发 表 的 软件 iqtree, X ultrafast bootstrap 
approximation(UFBoot) 方 法 获得 bootstrap 值 (Von Haeseler et al., 2013)， 比 RAxML 软件 的 传 
统 方法 ， 计 算 速 度 快 10~40 倍 ， 并 且 获 得 的 bootstrap 值 更 精确 

我 们 使 用 多 达 5 993 个 one-to-one 基因 家 族 构建 的 进化 树 ， 与 APG IV 报道 的 主要 差异 
为 模 香 目 和 石竹 目 在 系统 发 育 树 中 的 位 置 , 本 研究 认为 “ 檀 香 目 和 石竹 目 是 蔷 微 类 植物 的 姊 
TRAP”, M APG IV 认为 “ 檀 香 目 和 石竹 目 是 菊 类 植物 的 姊妹 群 "。 可 能 原因 有 以 下 两 个 : 一 
是 基因 数目 的 增多 ; 二 是 本 研究 所 选 88 个 植物 只 有 一 半 使 用 的 基因 组 序列 ， 另 一 半 为 转录 
组 序列 ， 而 转录 组 序列 一 般 存 在 大 量 的 基因 人 缺失 《〈 即 未 表达 基因 较 多 )。 

总 的 来 说 ， 本 研究 不 仅 进一步 确定 了 被 子 植物 各 目 间 系 统 发 育 关 系 ， 而 且 为 “使 用 更 多 
的 基因 和 计算 速度 更 快 的 方法 构建 进化 树 ” 探 讨 了 一 种 可 行 性 策略 : 即使 用 Yang & 
Smith(2014) 报 道 的 同 源 基 因 聚 类 及 去 劳 系 同 源 基因 方法 ， 获 得 大 量 的 one-to-one 基因 家 族 ， 
再 使 用 IQ-TREE (IKA) 和 ASTRAL CHIE) 软件 ， 能 快速 精确 的 计算 出 进化 树 。 随 
着 更 多 植物 基因 组 的 测序 和 基因 聚 类 及 系统 发 育 关 系 构建 方法 的 进一步 优化 , 被 子 植 物 系统 
发 育 关系 将 越 来 越 精确 , 例如 进一步 准确 确定 檀 香 目 和 石竹 目 在 被 子 植物 中 与 其 他 进化 分 文 
之 间 的 关系 。 
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